STAT1 : LES VARIABLES STATISTIQUES

AfroMap’R 2025

Claude Grasland & Jean-Paul Nguesso

2025-06-01

Objectifs du cours

  • Comprendre le concept de variable
  • Distinguer les types de variables
  • Faire une transformation appropriée des données
  • Presenter les données d’une manière convenable

LE CONCEPT DE VARIABLE

Définition

VARIABLE = VARIE + ABLE = PEUT VARIER

“Une variable est une quantité qui varie d’un sujet à un autre. Tout attribut, phenomène ou évenement qui peut prendre différentes valeurs”

La valeur que nous collectons chez un sujet est appelée “DONNEE”

Informations fournies par les variables

  1. attribut indiviuel : âge, sexe, statut matrimonial, profession, niveau socio- economique, etc.
  2. attribut spatial : localisation géographique (region, pays, ville), milieu (urbaine ou rural), etc.
  3. attribut temporel : heure (jour/nuit), date (jour, mois, année), saison, durée (en heures, en jours, en mois, en année), etc.

Exemple pédagogique

Nous pouvons demander aux étudiants qui suivent le cours de statistique de donner (de façon anonyme) leurs

  • Age
  • Sexe
  • Statut matrimonial
  • Lieu de residence
  • Poids
  • Taille

Les femmes du Bénin en 2018 (données)

Nous avons extrait de l’enquête DHS du Bénin de 2018 les caractéristiques de 4617 femmes ayant au moins un enfant. Le tableau se présente comme suit

poids taille age region milieu educ nbenf
67.1 164.5 33 ALIBORI Rural 0 5
62.7 161.8 39 ALIBORI Rural 0 5
81.7 157.6 33 ALIBORI Rural 0 4
poids taille age region milieu educ nbenf
53.8 152.4 30 ZOU Urban 7 3
51.5 160.7 18 ZOU Urban 9 1
53.7 150.1 23 ZOU Urban 0 3

Le tableau comporte 4617 individus décrits par 7 variables et rassemble 4617 x 7 = 32319 valeurs.

Les femmes du Bénin en 2018 (métadonnées)

  • poids : poids de la femme en kilogrammes
  • taille : taille de la femme en centimètres
  • age : âge de la femme en années révolues
  • region : département de localisation au moment de l’enquête (10 modalités)
  • milieu : type de milieu urbain ou rural
  • educ : nombre d’années de scolarisation (0 à 17)
  • nbenf : nombre d’enfants au moment de l’enquête

Source : Data and Health Survey (DHS), 2018.

LES TYPES DE VARIABLES

Typologie initiale

La première distinction oppose les variables quantitatives (numériques) et qualitatives (non-numériques). Puis on distingue les variables discrètes (modalités finies) et continues modalités infinies)

Les variables quantitatives

  • Une variable est dite quantitative si ses valeurs sont des variables numeriques, c’est à dire des chiffres ou des nombres.
  • Ce sont des données sur lesquelles l’on peut appliquer des opérations mathematiques telles que la somme, la moyenne, etc.
  • Les variables quantitatives peuvent être continues ou discrètes

Quantitatives continues ou discrètes ?

Les variables quantitatives continues font parties de l’ensemble des nombres réels \(\mathbb{R}\) tandis que les variables numériques discrètes font partie de l’ensemble des nombres entiers \(\mathbb{N}\).

Quantitatives de stock ou d’intensité ?

Une seconde distinction, très importante en cartographie, oppose les variables quantitatives de stock (absolue) et d’intensite (relative).

  • Une variable quantitative de stock est une variable qui exprime des quantités absolues que l’on peut additionner. Par exemple, on peut additionner la population ou la superficie de tous les départements pour obtenir la population totale d’un pays.

  • Une variable quantitative d’intensité est une variable qui exprime une intensité relative. On peut en faire la moyenne mais on ne peut pas l’additionner. Par exemple si on additionne la température ou la densité de population de tous les départements d’un pays on obtient des mesures dépourvues de signifcation

Exercice : quel est le type de ces variables ?

poids age nbenf
67.1 33 5
62.7 39 5
81.7 33 4
58.2 28 4

Réponse ?

  • la variable poids est quantitative continue : en effet on peut avoir une infinité de valeur dans l’intervalle compris entre le maximum et le minimum. Il s’agit d’une variable de stock car on peut additionner les poids de toutes les femmes.
  • la variable nbenf est quantitative discrète : en effet le nombre d’enfant qu’a eu une femme est toujours entier. Il s’agit d’une variable de stock car on peut additionner les nombres d’enfants de toutes les femmes.
  • la variable age est quantitative continué si elle est mesurée en âge exact ou quantitative discrète si elle est mesurée en âge révolu. Il s’agit d’une variable d’intensité car la somme des âges n’a pas de signification.

Les variables qualitatives

Une variable est qualitative si ses valeurs correspondent à des qualités, attributs, décrits par des chaînes de caractères ou éventuellement des nombres utilisés comme symboles (ex. le code des départements français 01, 02, …95 est une variable qualitative).

  • Exemples: sexe, couleur des cheveux, groupe sanguin, nationalité, niveau d’education, religion, …

  • Une variable qualitative (discrète) peut être nominale, ordinale ou cyclique.

Types de variables qualitatives

  • Une variable nominale est une variable comportant plusieurs modalités non ordonnées. Par exemple, la religion ou la nationalité.

  • Une variable ordinale est une variable dont les modalités peuvent se ranger dans un ordre logique du plus petit au plus grand. Par exemple, le diplôme le plus élevé obtenu par un individu.

  • Une variable cyclique est une cas particulier de modalités ordonnées mais sans point de départ ou d’arrivée. Par exemple, les mois de l’année.

Exercice : quel est le type de ces variables ?

milieu region
Rural ALIBORI
Urban ALIBORI
Rural ATACORA
Urban ATACORA
Urban ATLANTIQUE
Rural ATLANTIQUE

Réponse ?

  • les deux variables sont de type qualitatif nominal. EN effet il n’y a pas d’ordre entre les types de milieu ou entre les départements du Bénin

Cas particulier des variables booléennes

  • Une variable booléenne (ou logique) ne prend que les deux valeurs “Vrai” ou “Faux”. Il s’agit donc d’une variable qualitative discrète.

  • Mais d’un point de vue mathématique on peut la coder 0 = Faux et 1 = Vrai ce qui permet, sous certaines condition de l’utilise comme variable quantitative discrète.

  • Dans le logiciel R, il existe un type particulier de variable appelé logical qui correspond à ce cas spéciques.

Cas particulier des variable booléenne

Si on considère la variable “A fait des études ?” on peut la résumer dans R soit sous la forme d’un tableau de dénombrement (variable qualitative) soit sous la forme d’une moyenne (variable quantitative) comme le montre l’exemple ci-dessous :

[1] "logical"
x
FALSE  TRUE 
 3003  1614 
[1] 0.3495776

Typologie finale

On aboutit au schéma suivant des types de variables :

flowchart LR
A["Variable"]
B["Quanitative"]
C["Qualitative"]
D["Continue"] 
E["Discrète"]
F["Stock"]
G["Intensité"]
H["Booléenne"]
K["Nominale"]
L["Ordinale"]
I["Cyclique"]


A --> B
A --> H
A --> C
B --> E
B --> D
D --> F
D --> G
E --> F
E --> G
C --> K
C --> L
C --> I
   

TRANSFORMATIONS DE VARIABLES

Types de transformation

Après la collecte de données, des modifications peuvent être nécéssaire pour mieux presenter les objectifs de l’étude.

  • On peut créer de nouvelles variables
  • On peut transformer les variables existantes
  • on peut réduire les variables existances
  • On peut agréger les données pour changer d’unité d’observation

Création de variables

Le cas le plus simple consiste à créer une nouvelle variable à partir de variables existantes.

  • Exemple 1 : On peut calculer la densité de population d’une région à partir de sa population et de sa surficie :

\(Densité_{hab/km^2} = \frac{Population_{hab.}}{Superficie_{km^2}}\)

  • Exemple 2 : On peut calculer l’indice de masse corporelle d’un individus à partir de sa taille et de son poids :

\(IMC_{kg/m^2} = \frac{poids_{kg}}{(taille_m)^2}\)

Exemple de création

  • Calculez l’ICM des 5 femmes de ce tableau :
poids taille ICM
1 67.1 164.5 …..
2 62.7 161.8 …..
3 81.7 157.6 …..
4 58.2 160.4 …..
5 58.4 166.8 …..

Exemple de création

poids taille ICM
1 67.1 164.5 24.8
2 62.7 161.8 24.0
3 81.7 157.6 32.9
4 58.2 160.4 22.6
5 58.4 166.8 21.0

Transformation de variables

La transformation de variables s’accompagne en général d’une perte d’information liée à un changement de type ou une réduction du nombre de modalités. Un exemple typique est celui de la variable âge :

Exemple de transformation

Supposons qu’on veuille transformer la variable IMC (quantitative continue) en une variable qualitative ordinale en appliquant la grille suivante :

Exemple de transformation

poids taille IMC_quanti IMC_quali
1 67.1 164.5 24.8 Normal
2 62.7 161.8 24.0 Normal
3 81.7 157.6 32.9 Obésité
4 58.2 160.4 22.6 Normal
5 58.4 166.8 21.0 Normal

Réduction de variables

La réduction va consister typiquement à proposer un tableau simplifié des variables (tableau de dénombrement) contenues dans un tableau élémentaire. On distingue deux cas :

  • variables discrètes(qualitatives ou quantitatives) : Dénombrement de chacune des modalités avec regroupement optionnel de celles-ci
  • variables quantitatives continues : création obligatoire de classes avant d’effectuer le dénombement.

Dénombrement d’une variable discrète

Si l’on reprend l’exemple de l’ICM, le dénombrement va consister ici à calculer l’effectif (nombre) et la fréquence (pourcentage) de chacune des modalités.

n %
Insuffisance pondérale 206 4.5
Normal 3234 70.0
Surpoids 789 17.1
Obésité 266 5.8
Obésité sévère 122 2.6
Total 4617 100.0

Dénombrement d’une variable quantitative continue

Il existe beaucoup de solutions pour créer des classes, chacune aboutissant à des résultats différents. Prenons l’exemple de la taille des femmes du Bénin qui varie entre 80 et 187cm

Quatre classes d’amplitudes égales

[1]  80.00 106.75 133.50 160.25 187.00
x Freq
[80,107] 1
(107,134] 2
(134,160] 2819
(160,187] 1795

Quatre classes d’effectifs égaux

x Freq
(80,155] 1165
(155,159] 1159
(159,162] 1145
(162,187] 1147

Classes “de convenance”

x Freq
Petite (< 150) 314
Moyenne (150-160) 2444
Grande (160-170) 1711
Très Grande(>170) 148

Agrégation de variables

L’agrégation est un cas particulier de regroupement d’une ou plusieurs variables issues d’un premier tableau pour construire un second tableau où les lignes sont des individus de nature différente du tableau initial.

Un cas typique est celui de l’agrégation géographique qui fait passer d’un tableau d’individus à un tableau de lieux.

Prenons l’exemple des femmes du Bénin (tableau individuel) et transformons le en un tableau par département.

Agrégation de variables de stock

On utilise la fonction somme pour agréger des stocks. On peut ainsi sommer le nombre de femmes et d’enfant par département puis en déduire le nombre d’enfant par femme à ce niveau d’analyse.

region nbfem nbenf enf_fem
ALIBORI 554 2078 3.8
ATACORA 431 1777 4.1
ATLANTIQUE 436 1648 3.8
BORGOU 565 2161 3.8
COLLINES 382 1398 3.7
COUFFO 301 1190 4.0
DONGA 345 1259 3.6
LITTORAL 334 970 2.9
MONO 236 877 3.7
OUÉMÉ 326 1122 3.4
PLATEAU 266 973 3.7
ZOU 441 1634 3.7

Agrégation de variables d’intensité

On peut également agréger les variables d’intensité en utilisant des indicateurs statistiques tels que la moyenne, la médiane, le minimum, le maximum, l’écart-type, … Prenons l’exemple de la variable taille.

Taille des femmes du Bénin par dépaertement (source : Enquête DHS, 2018)
region minimum maximum moyenne mediane ecart_type
ALIBORI 144.6 176.9 160.4 160.3 5.8
ATACORA 142.6 177.8 159.8 159.3 6.0
ATLANTIQUE 139.0 176.7 158.2 157.9 6.0
BORGOU 142.3 179.4 158.7 158.5 5.8
COLLINES 80.0 187.0 158.9 159.1 7.4
COUFFO 142.5 173.4 158.0 157.7 5.8
DONGA 141.0 174.5 158.6 158.5 5.4
LITTORAL 139.3 176.4 159.0 158.8 6.0
MONO 138.0 172.2 158.1 158.2 6.0
OUÉMÉ 140.6 178.9 158.8 158.5 6.2
PLATEAU 115.5 174.8 157.5 157.9 6.4
ZOU 139.1 175.0 156.9 156.6 6.1

CONCLUSION

Importance du type de variable en statistique

La variable est l’unité de base nécessaires pour effectuer une recherche. Le chercheur doit sélectionner la liste des variables pertinentes pour les objectifs de l’étude, spécifier chaque élément d’information et lui attribuer son rôle. Le type de variable devrait être fixée afin de permettre la collecte de données appropriée, la transformation et la présentation.

Préparation des variable dans R

Le logiciel R a été écrit par des statisticiens qui accordent une grande importance au choix du type des variables pour réaliser des traitements ou des graphiques appropriés.

  • La première étape d’une analyse statistique avec R consiste donc à vérifier précisément le type des données que l’on a importé et à effectuer les transformations nécessaires avant tout traitement.